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摘要 : 昆虫 自动 识别 是 重要 的 新 兴 人 研究 领域 ,其 中 特征 筛选 与 恰当 地 将 多 分 类 转化 为 二 分 类 是 两 个 关键 步 又。 本 文 
基于 支持 问 量 分 类 , 提出 了 一 种 新 的 多 类 昆虫 目 动 鉴别 方法 : 先 以 初始 样本 互 作 转换 将 多 分 类 转化 为 二 分 类 , 再 以 
可 交换 核 函 数 消除 互 作 样 本 中 初始 样本 排列 顺序 不 同 的 影响 , 继 以 非 线性 筛选 去 除 无 关 特 征 与 元 余 特 征 并 给 出 各 保 
留 特征 相对 重要 性 排序 , 最 后 以 简单 投票 决策 校正 独立 预测 结果 。 新 方法 应 用 于 2 科 7 种 蝶 类 目 动 鉴别 ， 以 前 翅 9 
个 这 脉 交 又 点 距离 为 初始 特征 , 种 、 科 阶 元 26、24 个 随机 初始 测试 样本 均 获 得 了 100% 的 准确 鉴别 。 新 方法 在 昆虫 目 
动 识 别 等 多 分 类 领域 有 广泛 应 用 前 景 。 
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Automatic identification of butterfly species with an improved support 


vector classification 
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Abstract: Automatic identification of insects is an important and emerging area of research. The screening 
features and transforming multi-class classification into two-class classification properly are two key 
procedures in the process. In this article, a novel method for automatic identification of multi-class insects 
was developed based on support vector classification (SVC). Firstly, the initial multi-class samples were 
transformed into two-class samples with interaction transformation. Secondly, a symmetrical kernel function 
was inducted to solve the rank problem of the two initial samples in interaction sampling pair. Thirdly, 
irrelevant and redundant features were eliminated nonlinearly with SVC and the relative importances of kept 
features were listed. Lastly, the prediction results were further corrected by simple-vote decision. The new 
method was applied to identify the butterflies of seven species at species level and family level, and the 
accuracies at both levels are 100%. The results show that the new method can be widely used in the 
prediction area of multi-class classification, such as automatic identification of insects. 
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et al.，1999 )、 数 学 形态 学 识别 法 ( 赵 汗 青 等 ， 


类 鉴定 费时 耗 力 。 昆 虫 日 动 识别 具 和 直接、 快速 和 方 
便 等 优点 , 已 成 为 重要 的 新 兴 人 研究 领域 ; 其 一 般 流 
程 是 对 训练 样本 , 经 数码 图 像 获取 `、 图 像 预 处 理 、 特 
征 提 取 和 特征 短 选 等 步骤 后 构建 分 类 需 ,， 识别 待 测 
样本 ( 徐 鹏 等 , 2010) 。 先 后 发 展 的 昆虫 日 动 识别 方 
法 有 模板 匹配 法 (Liu, 1996) 、 主 成 分 分 析 法 (Weeks 


2003)、 人工 神 经 网 络 法 ( 姚 育 等 ,2005 )、 几何 形态 
学 识别 法 ( Gilchrist and Crisafulli, 2006 ) 和 支持 癌 量 
机 ( support vector machine，SVM ) 法 ( Mayo and 
Watson ,2007 ) 和 等。 其中, SVM 基于 结构 风险 最 小 ， 
较 好 地 解决 了 非 线 性 、 过 拟 合 和 局 部 最 小 等 问题 ， 
泛 化 推广 能 力 优 异 (Vapnik,， 1995 ) 。SVM 包括 分 类 
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( support vector classification ，SVC ) 和 回归 ( support 
vector regression, SVR ) 。 

当 特 征 提取 后 ,为 九 除 无 关 特 征 与 元 余 特 征 的 
影响 , 且 考 虑 到 特征 与 类 别 标量 间 往 往 存 在 非 线 性 
关系 , 基于 SVC 发 展 新 的 非 线性 特征 筛选 方法 是 必 
要 的 。 当 类 别 较 多 时 ( 衣 > 2 ), 多 分 类 SVC 鉴别 精 
度 不 如 二 分 类 SVC。 采 用 “一 对 一 ”将 多 分 类 转化 


为 二 分 类 , 需 构建 和 一 号 个 二 分 类 器 , 过程 繁 


琐 ; 采用 “一 对 余 ” 将 多 分 类 转化 为 二 分 类 ，, 仍 需 构 
建 个 二 分 类 器 ,上 且 正人 负 训 练 样本 个 数 往往 极 不 均 
衡 。 无 论 是 “一 对 一 ”还 是 “一 对 余 ”, 其 构建 的 单 
个 二 分 类 天 均 存 在 信息 利用 不 充分 和 预测 精度 有 行 
进一步 提升 等 问题 。 本 文 以 2 科 7 种 蝴蝶 共 70 头 
个 体 为 初始 样本 ,以 蝶 类 前 翅 9 个 怒 脉 交叉 点 距离 
为 初始 特征 ( 潘 鹏 亮 等 , 2008), 发 展 了 一 种 将 多 分 





并 基于 SVC 发 展 了 一 种 新 的 高 精度 非 线 性 特征 得 
选 方法 。 种 科 阶 元 独立 预测 结果 表明 ， 新 方法 在 昆 
忠 目 动 识别 中 应 用 前 景 广泛 。 


1 数据 与 方法 


1.1 数据 集 
数据 为 2 科 7 种 蝴蝶 ( 共 70 头 ) 的 前 亏 9 个 翅 
肪 交叉 点 距离 特征 ( 潘 鹏 腕 等 , 2008 ) 。2 科 7 种 蝴 
蝶 为 绢 蝶 科 (Parnassiidae ) (和 白 绢 虹 Parnassius 
stubbendorfii,， 红 珠 绢 蝶 P，bremeri, 小 红 珠 绢 蝶 P. 
nomion) 和 粉 蝶 科 (Pieridae ) (楼 粉 蝶 Ixias pyrene， 
锯 粉 昱 Prioneris thesiylis， 尖 多 粉 蝶 Gonepteryx 
mahaguru, 徐 顶 粉 蝶 Hebomoia glaucippe)。 
1.2 初始 样本 互 作 转 换 
对 种 阶 元 , 初始 样本 含 7 类 (7 个 种 ), 每 类 10 

个 个 体 , 共 70 个 个 体 , 每 个 个 体 有 9 个 距离 特征 。 
随机 从 每 类 中 抽取 3 ~4 个 个 体 共 26 个 个 体 组 成 初 
台 测试 样本 , 余 者 为 初始 训练 样本 。 初 始 训 练 样本 
中 同类 样本 两 两 配对 (例如 昌 绢 蝶 的 1 号 样本 -2 号 
样本 ), 互 作 转换 产生 合 18 个 距离 特征 的 新 训练 集 
正 样本 train P( 同类 为 正 样本 ) , 去 除 重复 样本 ( 例 
如 昌 绢 蝶 的 1 号 样本 -2 号 样本 与 2 号 样本 -1 号 样 
本 , 仅 保留 其 一 ) , 共 得 117 例 train P。 类 似 地 , 初 
人 训练 样本 中 异类 样本 两 两 配对 (例如 白 绢 蝶 的 1 
了 样本 - 红 珠 绢 蝶 1 号 样本 ), 经 互 作 转 换 与 去 重 
复 , 共 得 829 例 新 训练 集 负 样本 train N( 异 类 为 负 


样本 )。 为 使 训练 集 正 负 样本 数量 均衡 ,从 train N 
中 随机 选取 113 例 , 合并 117 例 train P, 组 成 230 
例 新 训练 样本 train。 每 个 初始 测试 样本 与 初始 训 
练 样本 中 的 每 个 个 体 配对 , 得 1 114 例 新 测试 样本 
test。 

对 科 阶 元 , 仅 有 两 类 样本 无 需 进 行 初始 样本 互 
作 转 换 。 为 显示 本 文 方法 的 普 适 性 ,此 处 仍 进行 初 
始 样 本 互 作 转 换 。 从 绢 蝶 科 、 粉 蝶 科 内 分 别 随 机 抽 
取 10 和 14 个 个 体 共 24 个 个 体 组 成 初始 测试 样本 ， 
余 者 为 初始 训练 样本 。 同 上 经 互 作 转 换 与 去 重复 ， 
最 后 生成 515 例 新 训练 集 正 样 本 train P, 520 例 新 
训练 集 负 样本 train N, 合并 得 1 035 例 新 训练 样本 
train，1 104 例 新 测试 样本 test。 
1.3 LIBSVM 2.8 软件 包 与 SVC 

LIBSVM 2. 8 软件 包 的 SVC 功能 需 用 到 4 个 常 
用 程序 : svmscale 用 于 对 原始 数据 规格 化 ，svmtrain 
用 于 训练 ，svmpredict 用 于 预测 ，grid. py 用 于 上 自动 
搜索 核 函 数 最 优 参数 o, g (ce[ -5, 10],gel- 


10, 5] , 步 长 均 为 1) 。 各 程序 用 法 及 其 参数 设置 参 
见 Chang 和 Lin (2001 ) 。 
1.4 可 交换 核 郑 数 


党 用 的 线性 核 、 多 项 式 核 、 径 同 基 核 和 Sigmoid 
核 等 在 本 文 情况 下 均 不 适用 。 假 定 新 样本 A(ai， 
az ) 由 两 个 初始 样本 al, a 组 成 , 则 样本 A'(a,, al) 
与 A 应 为 同一 样本 。 但 在 核 函 数 内 积 运算 中 , 样本 
A(al， a) 与 样本 B(bi, b,) 之 间 的 距离 K(Dis) 为 
| Da -Dr | + | D,, -Da | ; 样本 A'(a,, ai ) 与 
样本 B(b, b,) 之 间 的 距离 K(Daws) 为 Ds -Da | 
+ | Da -De 上 。K(Das) 与 K(Das) 可 能 不 相等 。 
Shen 等 (2007 ) 基于 径 问 基 核 发 展 了 一 种 新 的 可 交 
换 核 函数 一 一 S- 核 函数 : 

K(Ds) =K(Das) =exp( -gl Di ) 

D=min {( | Ds - Dy | + | Do - Da 1 ) ， 
(Ds -Da ll + | Da -Dr | 7) 

S- 核 函数 巧妙 解决 了 新 样本 中 初始 样本 排列 顺 
序 不 同市 来 的 问题 , 本 文采 用 S- 核 函数 。 
1.5 非 线 性 特征 筛选 

基于 SVC 与 5- 核 函 数 , 对 新 训练 样本 train 进 
行 10 次 交叉 测试 , 可 得 准确 率 r 和 平均 判 对 概率 p 
( 当 r 相 同时 , p 较 大 者 模型 更 优 ): 

rr = = (77 + TN)/n 


p= (PPIP + PIN) 
式 中 : n 为 总 样本 个 数 ， TP, TN 分 别 为 判 对 的 正 样 
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本 、 负 样本 个 数 ，PITP，PTN 分 别 为 SVC 给 出 的 茶 
个 正 样本 属于 正 样本 的 概率 、 某 个 负 样 本 属于 负 样 
本 的 概率 。 

现 以 多 轮 末尾 淘汰 法 从 包含 全 部 初始 特征 的 
SVC 模型 中 经 10 次 交叉 测试 逐次 非 线性 别 除 对 识 
别 精度 有 不 利 影响 的 特征 。 当 模型 识别 精度 较 高 时 
(如 r=100%), 仪 以 准确 率 r 最 大 为 标准 无 法 第 
选 。 故 本 文 沪 选 以 准确 率 r 最 大 为 第 一 标准 , 当 7 
相同 时 以 平均 判 对 概率 p 最 大 为 第 二 标准 。 

对 第 一 轮 租 选 , 记 rz ， Xz Ni )、 
PC 和， Xi Ni) 为 包含 全 部 天 个 初始 特征 
的 准确 率 、 平 均 判 对 概率 ,，r(2 ， 2 ，…，M 1 ，Mii1， 
Mi 、 PC Mi 3， 和) 为 唱 除 
第 i(i = [1, 有] ) 个 初始 特征 后 的 准确 率 、 平 均 判 


对 概率 。 如 max[ r(xi, X2 ， 的 Xi-1， Xi+1， 四 Xx) | 
< r(%1, X2 ， 四 Xi ， 的 和 ) 日 maxLp(xi ， X2 ， 的 
Xi-1， Xi+1， 的 Xx) | < p(X1, X2 ， 的 Xi ， 的 NX) 9 


表明 没有 特征 可 史 除 ,筛选 结束 ; 反之 , 噜 除 第 ; 
个 初始 特征 后 进入 下 一 轮 入 选 ( 注 意 此 时 堪 变 为 大 - 
1 ) ,直至 没有 特征 可 剔除 为 止 。 筛 选 结束 后 的 初 
始 特征 称 为 保留 特征 , 用 于 后 续 建 模 预 测 (测试 集 
样本 对 应 仅 含 保留 特征 ) 。 

为 基于 SVC 给 出 各 保留 特征 的 相对 重要 性 次 
序 , 可 进一步 采用 多 轮 末尾 淘汰 法 对 保留 特征 进行 
强制 第 选 ,每 轮 淘 汰 一 个 r(xi，%2，*……*，X;_1，Xinl， 
和 p(X Xo Ni， Ni ，"，%p) 最 大 的 
保留 特征 ， 百 到 只 剩 下 一 个 保留 特征 (相对 最 为 重 
要 ) 为 止 。 
1.6 ”独立 预测 与 简单 投票 决策 

基于 SVC 与 $- 核 函数 ,对 仅 含 保留 特征 的 新 


训练 样本 train， 经 grid. py 参数 寻 优 ，svmtrain 建 
模 ， 以 svmpredict 对 仅 含 保留 特征 的 新 测试 样本 
test 实施 二 分 类 独立 预测 。 此 独立 预测 结 采 仪表 明 
某 初 始 测试 样本 与 某 初 始 训练 样本 是 同类 ( 正 样 
本 ) 还 是 异类 ( 负 样 本 ) , 不 能 对 该 初始 测试 样本 进 
行 明 确 类 别 划 分 。 以 种 阶 元 为 例 , 假定 每 类 的 第 1 
号 样本 为 初始 测试 样本 , 余 者 为 初始 训练 样本 。 则 
日 绢 蝶 第 1 号 样本 ( 记 为 test-1， 此 时 类 别 尚 属 未 
知 ) 与 每 类 初始 训练 样本 ( 共 7 类 , 类 别 已 知 ) 将 产 
生 9 个 配对 , 共 63 个 配对 , 构成 一 组 新 测试 样本 。 
在 该 组 新 测试 样本 中 , 依 二 分 类 独立 预测 结果 ,经 
简单 投票 决策 计算 净 得 票数 ,可 确定 test-l 的 类 别 
归属 : 记 test-1 与 第 i 类 初始 训练 样本 配对 后 二 分 
类 独立 预测 判 为 正 样 本 ( 同类) 的 配对 数 为 test1 Pi ， 
test-1 与 第 i 类 初始 训练 样本 配对 后 二 分 类 独立 预 
测 判 为 久 样 本 (异类) 的 配对 数 为 testl1Ni ， 则 
max(testl1 Pi-test1Ni) 对 应 的 z 即 test-1 所 属 类 别 。 

非 线性 特征 筛选 独立 预测 与 简单 投票 决策 等 
过 程 以 Matlab 编程 实现 。 
1.7 聚 类 分 析 

在 种 阶 元 ,分别 基于 全 部 初始 特征 、 非 线性 得 
选 后 的 保留 特征 ， 以 全 部 样本 、 同 类 样本 均值 进行 
聚 类 , 同 列 特征 标准 化 ,欧式 距离 ，Mega4.0 软件 ， 
UPGMA 法 (Tamura et al., 2007 ) 。 


2 结果 与 分 析 


2.1 种 阶 元 自动 鉴别 结果 
种 阶 元 非 线 性 特征 第 选 过 程 与 人 简单 投票 决策 结 
果 见 表 1 O 〇 


表 1 特征 筛选 与 简单 投票 决策 结果 


Table 1 Result of feature screening and simple-vote 


筛选 前 筛选 后 
加 ; ; 决策 结果 ( % ) 
阶 元 Before screening 特征 相对 重要 性 排序 * After screening 机 
esull O 
Cat ， Sort the feat ith their relative import 、 
”准确 率 (% ) 平均 判 对 概率 ”0 准确 率 (%) 平均 判 对 概率 simple-vote 
了 Pp 了 Pp 
种 
97.39 0.9451 (Xe >X1 >Xs > Xe >X4) >X >Mo >X3 >%X7 99. 13 0.9719 100 
Species 
科 
100 0.9975 (X6 > >X1 >%g >Xo >x7) >xs >X4 > 100 0.9980 100 
Family 


”括号 内 为 保留 特征 In parentheses are the kept features. 
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特征 沛 选 前 , 230 例 新 训练 样本 10 次 交叉 测试 
的 准确 率 7r 为 97.39% , 平均 判 对 概率 p 为 0.9451; 
在 非 线性 沛 选 去 除 特征 x,，x3，x;，%o 后 ,准确 率 r 
提高 到 99. 13% , 平均 判 对 概率 p 提高 到 0. 9719， 
模型 优化 明显 。 在 9 个 左前 这 翅 脉 相 邻 交点 间距 离 
初始 特征 中 ,5 个 保留 特征 对 7 种 蝶 类 自动 鉴别 有 
影响 , 其 相对 重要 性 从 大 到 小 依次 为 6-7, 12, 5-6， 
8-9 和 4-5。 

1 114 例 新 测试 样本 二 分 类 独立 测试 准确 率 > 
为 99.82% , 仪 两 例 负 样 本 误 判 ， 即 白 绢 蝶 第 9 号 
样本 - 红 珠 绢 蝶 第 10 号 样本 、 红 珠 绢 蝶 第 6 号 样本 - 
小 红 珠 绢 蝶 第 5 号 样本 ; 误 判 样本 同属 于 绢 蝶 属 ， 
杀 缘 关系 较 近 。 经 简单 投票 决策 ，26 个 初始 测试 
样本 均 正确 归 类 , 准确 率 100% 。 


2.2 聚 类 分 析 结 果 

基于 全 部 初始 特征 、 非 线性 第 先后 的 保留 特征 ， 
对 全 部 样本 、 同 类 样本 均值 的 UPGMA 聚 类 结 采 如 
图 1。 全 部 样本 基于 保留 特征 聚 类 , 仅 红 珠 绢 蝶 3 
个 样本 \ 晶 绢 蝶 1 个 样本 混和 人 小 红 珠 绢 姨 类 ; 而 全 
部 样本 基于 全 部 特征 聚 类 , 小 红 珠 绢 蝶 \ 日 绢 蝶 、 红 
珠 绢 蝶 混 涌 严 重 。 同 类 样本 均值 基于 保留 特征 聚 
类 ,同属 粉 蝶 科 的 尖 钩 粉 包 与 栓 粉 蝶 移 聚 为 一 类 ， 
再 与 绢 蝶 属 3 种 合并 ; 同类 样本 均值 基于 全 部 特征 
聚 类 , 栓 粉 蝶 移 与 绢 蝶 属 3 种 聚 为 一 类 ,再 与 尖 钧 
粉 蝶 合并 。 可 见 , 基于 保留 特征 聚 类 优 于 基于 全 部 
初始 特征 聚 类 ,进一步 表明 非 线性 特征 租 选 是 有 
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图 1 UPGMA 聚 类 分 析 结 果 
Fig.1 Cluster analysis results with UPGMA 
A: 全 部 样本 , 全 部 9 个 特征 All samples and all 9 features; B: 全 部 样本 ,5 个 保留 特征 All samples and 5 kept features; C: 样本 均值 , 全 部 9 个 
特征 Mean values of the same species and all 9 features; D : 样本 均值 ,5 个 保留 特征 Mean values of the same species and 5 kept features. Gm: 尖 钓 
粉 蝶 Gonepteryx mahaguru; Hg: 稚 顶 粉 蝶 Hebomoia glaucippe; Ip: 权 粉 蝶 Ixias pyrene; Pb: 红 珠 绢 蝶 Parnassius bremeri; Pn: 小 红 珠 绢 蝶 已 
nomion; Ps: 白 绢 蝶 P.， siubbendorfii; Pt: 锯 粉 蝶 Prioneris thesiylis.， 种 名 缩写 后 的 数字 表示 不 同 的 个 体 样 本 Different numbers after the 


abbreviations of the species names indicate different individual samples. 
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2.3 ” 科 阶 元 自动 鉴别 结果 

科 阶 元 非 线 性 特征 第 选 过 程 与 简单 投票 决策 结 
末 见 表 1。 

特征 筛 选 前 , 1 035 例 新 训练 样本 10 次 交叉 测 
试 的 准确 率 r 既 已 达到 100% , 平均 判 对 概率 p 为 
0.9975; 在 非 线 性 筛选 去 除 特征 MX3 ,Xa 和 Xs 后 , 平 
均 判 对 概率 p 提高 到 0. 9980。 在 9 个 左前 翅 示 脉 相 
邻 交 点 间距 离 初始 特征 中 ,6 个 保留 特征 对 2 科 蝶 
类 上 自动 鉴别 有 影响 ,其 相对 重要 性 从 大 到 小 依次 为 
6-7, 2-3, 12 ,8-9, 9-1 和 7-8。1 104 例 新 测试 样本 
二 分 类 独立 测试 准确 率 r 为 100% ; 24 个 初始 测试 
样本 均 正 确 归 类 , 准确 率 100% 。 


3 讨论 


由 于 下 接 多 分 类 天 识别 精度 不 如 二 分 类 般 ， 如 
何 将 多 分 类 转化 为 二 分 类 一 直 是 模式 识别 中 的 一 个 
难点 。 常 用 的 “一 对 一 ”或 “一 对 余 ” 转 换 存 在 单个 
子 分 类 器 训练 样本 偏 少 、 信 息 利用 不 充分 、 正 负 样 本 
数目 不 均衡 以 及 子 分 类 器 数目 过 多 、 预 测 精 度 有 符 
进一步 提升 等 问题 。 本 文 发 展 的 初始 样本 互 作 转换 
是 较 好 的 多 分 类 转化 为 二 分 类 解决 方案 , 它 仅 需 构 
建 一 个 二 分 类 器 ,能 有 效 增 加 训练 样本 个 数 , 信息 
利用 充分 。 在 进一步 采用 可 交换 核 函 数 解决 互 作 样 
本 对 中 初始 样本 排列 顺序 的 影响 .采用 非 线性 乌 选 
去 除 无 关 特征 与 匈 余 特征 、 对 独立 预测 结果 采用 简 
单 投票 决策 后 , 本文 在 种 、 科 阶 元 初始 测试 样本 自 
动 鉴别 均 获得 了 100% 的 准确 率 。 作 为 参照 , 潘 脑 
亮 等 (2008 ) 采 用 Fisher 线性 分 类 咒 ( 本 文 SVC 为 非 
线性 分 类 器 )、 基于 全 部 初始 特征 (本 文 经 非 线 性 得 
选 在 种 阶 元 去 除了 4 个 初始 特征 )、 仅 考虑 工科 1 属 
3 种 (本 文 考虑 2 科 5 属 7 种 ) 的 拟 合 准确 率 是 
100% , 留 一 法 预测 准确 率 是 86. 67% ( 本文 在 种 阶 
元 26 个 初始 测试 样本 经 简单 投票 校正 后 的 独立 预 
测 准 确 率 是 100% ) 。 显 示 以 初始 样本 互 作 转换 为 
核心 的 新 方法 在 多 分 类 模式 识别 中 有 广泛 应 用 前 
景 。 初 始 样本 互 作 转换 存在 的 一 个 问题 是 负 样 本 
(异类 样本 对 ) 数 日 可 能 远大 于 正 样本 (同类 样本 
对 ) 数 目 , 可 以 采用 从 全 部 负 样 本 中 随机 抽取 部 分 
负 样 本 的 方法 解决 , 但 需 按 比例 控制 每 个 初始 样本 
在 负 样 本 中 出 现 的 次 数 ( 有 条 件 地 随机 抽取 )。 

SVC 属 有 监督 学 习 , 聚 类 属 无 监督 学 习 。 无 关 
特征 和 宛 余 特征 对 有 监督 学 习 和 无 监督 学 习 均 有 害 
( 陈 渊 等 , 2009) 。 在 有 监督 学 习 中 , 由 于 类 别 标量 


与 特征 间 往 往 存在 非 线 性 关系 , 采用 类 似 于 线性 逐 
步 回 归 的 线性 特征 租 选 并 不 可 行 ( 袁 哲 明 等 ， 
2008 ) 。 本 文 基于 SVC 给 出 了 一 种 高 精度 的 非 线性 
特征 筛选 方法 。 在 种 阶 元 , 非 线性 特征 筛选 结果 认 
为 这 脉 交 点 23 ,3<4,7-8 和 9-1 之 间 的 距离 变化 对 
鉴别 影响 不 大 , 这 与 话 鹏 亮 等 (2008 ) 报 道 “ 翅 脉 交 
点 2-3, 7-8 和 9-1 之 间 的 距离 变化 不 能 单独 作为 区 
分 绢 蝶 属 3 种 的 分 类 特征 参数 "较为 一 致 。 在 种 科 
阶 元 , 非 线性 特征 筛选 结果 均 认 为 翅 脉 交 反 6-7 之 
间 的 距离 变化 对 鉴别 最 为 重要 ,同样 得 到 文献 结 
文 持 ( 潘 鹏 亮 等 ，2008 ) 。 进 一 步 ，UPCMA 聚 类 结 
果 显 示 , 基于 非 线性 烯 选 后 的 保留 特征 聚 类 明显 优 
于 基于 全 部 初始 特征 聚 类 (图 1)。 综 上 所 述 , 我 们 
认为 本 文 提 出 的 非 线 性 特征 筛选 方法 是 有 效 的 。 然 
而 , 由 于 本 文 仅 给 出 了 各 保留 特征 的 相对 重要 性 排 
序 , 并 未 非 线性 给 出 各 保留 特征 权重 ,因而 我 们 并 
不 认为 图 1 基于 保留 特征 的 聚 类 图 是 7 种 蝶 类 系统 
发 育 关系 最 真实 的 反映 。 现 有 人 研究 对 有 监督 学 习 和 
无 监督 学 习 之 间 的 联系 尚 缺乏 深入 挖掘 ( 陈 渊 等 ， 
2009 ) ,， 如何 基于 有 监督 学 习 给 出 保留 特征 及 其 权 
重 , 藉 此 指导 无 监督 学 习 ( 系 统 发 育 关 系 推 其 ) 是 今 
后 有 符 研 究 的 重要 识 题 。 
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